Grasping是实际应用中大多数机器人的重要能力。软机器人夹具被认为是机器人抓握的关键部分,并在对象几何形状方差方差的高度和稳健性方面引起了相当大的关注;然而,它们仍然受到相应的传感能力和致动机制的限制。我们提出了一种新型软夹具,看起来像碎碎的碎碎片,其具有综合模具技术制造的柔顺的双稳态机构,纯粹机械地实现感测和致动。特别地,所提出的夹持器中的卡通双稳态结构允许我们降低机构的复杂性,控制,感测设计,因为抓握和感测行为是完全被动的。一旦夹持器的触发位置触及物体并施加足够的力,抓握行为就会自动激励。为了用各种型材抓住物体,所提出的粮食软夹具(GSG)设计为能够包封,夹紧和持续爪。夹具由腔掌,棕榈帽和三个手指组成。首先,分析夹具的设计。然后,在构造理论模型之后,进行有限元(FE)仿真以验证构建的模型。最后,进行了一系列掌握实验,以评估所提出的夹持器对抓握和感测的卡通行为。实验结果说明了所提出的夹持器可以操纵各种柔软和刚性物体,并且即使它承担外部干扰,也可以保持稳定。
translated by 谷歌翻译
遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是,与代理相关的数据/模型变化可以显着影响决策,并需要在代理之间达成共识。此外,大多数现有的作品都集中在开发(强烈或非严格地)凸出的方法上,对于一般非凸损失的分布式在线优化中的遗憾界限,几乎没有得到很少的结果。为了解决这两个问题,我们提出了一种新型的综合遗憾,并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式,我们开发了一种基于共识的在线归一化梯度(CONGD)的伪convex损失方法,事实证明,它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失,我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾,因此没有确定性算法可以实现sublinear的遗憾。然后,我们根据离线优化的Oracle开发了分布式的在线非凸优化(Dinoco),而无需进入梯度。迪诺科(Dinoco)被证明是统一的遗憾。据我们所知,这是对一般分布在线非convex学习的第一个遗憾。
translated by 谷歌翻译
对置换代码进行了广泛的研究,以纠正电源线通信上的应用程序和闪存等级调制的不同类型的错误。在本文中,我们介绍了置换代码的神经网络解码器,以单发解码纠正这些错误,这些解码将解码视为$ n $分类任务的非二进制符号,用于长度$ n $的代码。这些实际上是引入的第一个通用解码器,用于处理这两个应用程序的任何错误类型。通过具有不同误差模型的模拟来评估解码器的性能。
translated by 谷歌翻译
我们提出了一种有效的神经邻域搜索(N2S),以解决取货和交付问题(PDPS)。具体而言,我们设计了强大的综合注意力,可以使香草自我注意力综合有关路线解决方案的各种特征。我们还利用了两个自定义的解码器,它们会自动学习执行拾取节点对的删除和重新插入以应对优先限制。此外,利用多样性增强方案以进一步改善性能。我们的N2是通用的,并且对两个规范PDP变体进行了广泛的实验表明,它可以在现有神经方法之间产生最新的结果。此外,它甚至超过了众所周知的LKH3求解器在更受限的PDP变体上。我们针对N2S的实施可在线获得。
translated by 谷歌翻译
我们提出了一种新的多功能增强学习的新型政策梯度方法,其利用了两个不同的差异减少技术,并且不需要在迭代上进行大量批次。具体而言,我们提出了一种基于势头的分散策略梯度跟踪(MDPGT),其中使用新的基于动量的方差减少技术来接近具有重要性采样的本地策略梯度代理,并采用中间参数来跟踪两个连续的策略梯度代理。此外,MDPGT可证明$ \ mathcal {o}的最佳可用样本复杂性(n ^ { - 1} \ epsilon ^ {-3})$,用于汇聚到全球平均值的$ \ epsilon $ -stationary点n $本地性能函数(可能是非旋转)。这优于在分散的无模型增强学习中的最先进的样本复杂性,并且当用单个轨迹初始化时,采样复杂性与现有的分散的政策梯度方法获得的样本复杂性匹配。我们进一步验证了高斯策略函数的理论索赔。当所需的误差容忍$ \ epsilon $足够小时,MDPGT导致线性加速,以前已经在分散的随机优化中建立,但不是为了加强学习。最后,我们在多智能体增强学习基准环境下提供了实证结果,以支持我们的理论发现。
translated by 谷歌翻译
VAR-VAR控制(VVC)是通过控制电源系统中的执行器在健康状态内运行电源分配系统的问题。现有作品主要采用代表电力系统(带有树拓扑的图)作为训练深钢筋学习(RL)策略的向量的常规例程。我们提出了一个将RL与图形神经网络相结合的框架,并研究VVC设置中基于图的策略的好处和局限性。我们的结果表明,与向量表示相比,基于图的策略会渐近地收敛到相同的奖励。我们对观察和行动的影响进行进一步分析:在观察端,我们研究了基于图形的策略对功率系统中两个典型数据采集错误的鲁棒性,即传感器通信失败和测量错误。在动作端,我们表明执行器对系统有各种影响,因此使用由电源系统拓扑引起的图表表示可能不是最佳选择。最后,我们进行了一项案例研究,以证明读取功能架构和图形增强的选择可以进一步提高训练性能和鲁棒性。
translated by 谷歌翻译